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摘要 : 目的 /意义 ] 旨 在 为 高 校 科研 项 目 周期 中 数据 质量 控制 提供 一 种 有 效 控 制 途径 与 方法 。[ 方 
法 / 过程] 围绕 科研 项 目 周期 和 数据 质量 控制 周期 构建 数据 质量 控制 架构 体系 ， 并 在 此 体系 之 下 从 认 知 、 
管理 、 流 程 3 个 视角 分 别 实施 数据 质量 控制 ， 引 入 质量 差距 模型 、 企 业 架构 模型 和 流程 分 析 等 控制 方法 ， 
剖析 高 校 科 研 项 目 周期 中 科研 数据 质量 控制 机 理 。[ 结果 / 结论 ] 构建 了 适用 于 科研 项 目 周期 中 高 校 科 
研 数 据 质量 控制 架构 体系 及 其 数据 质量 控制 模式 ， 为 高 校 科 研 数 据 质 量 控制 提供 理论 支撑 。 

关键 词 : 数据 质量 ”科研 项 目 周期 科研 环境 质量 差距 模型 。” 企业 架构 模型 
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的 数据 共享 技术 兼容 性 差 、 数 据 管理 意识 不 足 ， 
导致 科研 数据 质量 低下 、 利 用 率 不 高 。 而 高 校 
具有 得 天 独 厚 的 科研 数据 资源 优势 ， 是 产生 、 
利用 科研 数据 从 事 科 学 研究 的 主力 军 ， 因 此 ， 
高 校 更 需要 加 强 数据 密集 型 科研 环境 下 数据 质 
量 控制 ， 并 以 此 为 基础 探索 、 构 建 、 完 善 国 内 
高 校 在 数字 化 科研 背景 下 的 科研 数据 管理 架构 
与 体系 。 

回顾 国内 外 高 校 科研 数据 质量 控制 的 研究 


Ola 

随 着 第 四 科研 范式 环境 即 数据 密集 型 科研 
环境 的 形成 ， 科 研 数 据 量 成 指数 型 迅 狐 增长 ， 
数据 表现 形式 多 样 ， 对 于 科研 人 员 来 说 ， 其 所 
需 存 储 、 处 理 的 数据 量 信人 人， 数据 来 源 和 数据 
结构 繁多 复杂 ， 为 推动 科研 项 目的 进程 带 来 了 
很 大 的 阻碍 "…。 且 科研 项 目 中 充斥 的 数据 资源 
来 源 复杂 、 存 储 结构 多 样 ， 各 个 科研 项 目 团队 
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历程 , 研究 成 果 集 中 于 理论 体系 的 建立 以 及 实践 
应 用 。 在 高 校 科 研 数据 质量 控制 理论 体系 构建 
方面 , DAMA 将 数据 质量 控制 分 为 10 个 职能 域 ， 
成 为 当前 较为 被 认可 的 数据 管理 知识 体系 "; 
包 冬 梅 等 创新 性 地 提出 了 高 校 图 书馆 数据 治理 
框架 一 一 CALib 框架 ,促进 了 高 校 图 书馆 数据 
资源 有 效 利用 "， 届 文 建 等 基于 Krantz 理论 建 
立 了 高 校 科研 数据 质量 控制 架构 并 训 析 其 作用 
机 制 ， 为 高 校 科 研 团队 控制 科研 数据 提供 了 有 
效 理论 支撑 站。 在 实践 应 用 方面 ， 马 波 等 通过 
借鉴 和 总 结 欧美 高 校 图 书馆 的 科研 数据 管理 实 
践 经 验 ， 提 出 了 加 强 数据 治理 意识 与 基础 设施 
构建 、 人 才 培 养 等 策略 ， 以 期 提高 国内 高 校 科 
研 数据 治理 水 平 中 ; 徐 慧 芳 等 通过 调研 国内 科 
研 数据 管理 实践 并 进行 SWOT 分 析 ， 从 多 个 视 
角 提 出 了 国内 高 校 图 书馆 有 效 实施 科研 数据 服 
务 与 质量 控制 的 途径 外 。 然 而 通过 对 已 有 研究 
的 梳理 可 以 发 现 ， 在 数字 化 科研 背景 下 ， 科 研 
数据 管理 作为 高 校 图 书馆 及 科研 机 构 新 的 业务 
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生长 点 ， 其 数据 质量 控制 模式 在 应 付 海量 的 数 
据 规模 时 还 有 较 大 的 提升 空间 。 

基于 此 ， 本 文 围绕 科研 项 目 周期 构建 高 校 
科研 数据 质量 控制 架构 体系 ,并 从 认 知 、 管 理 、 
流程 3 个 视角 提出 高 校 科研 数据 质量 控制 模式 ， 
为 促进 我 国 科研 机 构 、 图 书馆 等 开展 科研 数据 
质量 工程 提供 理论 参考 。 


O 科研 项 目 周期 中 实行 数据 质量 控 
制 的 必要 性 


2.1 科研 项 目 周期 内 涵 及 其 相关 数据 活动 

科研 项 目 生 命 周 期 是 一 种 管理 学 意义 上 的 
项 目 生 命 周 期 ， 描 述 科研 项 目 “ 计 划一 立项 一 
实施 一 结 题 ”的 发 展 阶段 和 历程 。 为 便于 后 续 
研究 ， 本 文采 用 陆 玉泉 提出 的 科研 项 目 生 命 周 
期 划分 方法 , 将 科研 项 目 周期 划分 为 科研 构思 、 
科研 实施 、 成 果 整 理 和 成 果 发 表 4 个 阶段 罗 ， 
如 图 1 所 示 ， 基 于 此 来 研究 科研 项 目 周 期 中 的 
高 校 科 研 数据 质量 控制 。 
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图 1 高 校 科研 项 


C1) 科研 构思 阶段 。 科 人 研 构思 阶段 是 科研 
项 目 选 题 和 申报 立项 的 基础 ， 它 体现 了 科研 项 


目 周 期 中 相关 数据 活动 


目 团队 的 研究 能 力 和 科研 项 目的 新 颖 性 、 前 治 
性 。 这 一 阶段 的 数据 活动 主要 是 数据 资源 采集 。 
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项 目 团队 需要 进行 大 量 科研 数据 搜集 、 确 定 项 
目 干 系 人 、 科 研 项 目 选 题 及 数据 质量 规划 等 前 
期 研究 相关 工作 ， 其 中 数据 搜集 来 源 主要 依靠 
共享 联盟 、 主 动 上 传 和 直接 获取 等 方式 OK 
集 内 容 包括 但 不 限于 : 相关 科研 文献 资料 阅读 、 
国内 外 发 展 方向 与 研究 动态 跟踪 、 技 术 可 行 性 
分 析 、 市 场 调 研 等 。 

(2) 科研 实施 阶段 。 在 科研 实施 阶段 ， 项 
目 团队 需要 根据 科研 构思 阶段 完成 的 科研 规划 
来 进行 学 术 论 文 撰写 、 科 学 实验 开展 等 相关 科 
研 活动 。 这 一 阶段 是 科研 数据 生产 、 发 现 的 黄 
金 时 期 ， 需 要 按照 前 期 行动 中 得 到 的 数据 准则 
严格 规范 新 建 数 据 ， 采 取 合 适 的 数据 处 理工 具 
对 数据 进行 预 处 理 ， 尽 可 能 在 早期 获得 较 高 质 
量 的 数据 。 

(3) 成 果 整 理 阶 段 。 得 到 原始 科研 数据 后 ， 
需 借 助 数据 挖 气 、 数 据 库 、 数 据 质量 检测 识别 
等 技术 工具 对 数据 进行 提取 、 整 合 和 挖 据 ， 得 
到 更 精准 的 实验 结果 ， 并 以 此 为 根据 撰写 科研 
成 果 。 对 科研 数据 进行 整合 、 分 析 与 可 视 化 ， 
使 其 更 直观 地 反映 事物 之 间 的 真实 联系 是 成 果 
整理 阶段 的 工作 重心 。 

(4) 成 果 发 表 阶段 。 经 过 前 期 的 努力 与 锤 
炼 ,项 目 团队 的 科研 成 果 成 形 ， 经 修改 、 调 整 
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后 进入 评议 、 审 查 和 发 表 阶段 。 这 一 阶段 主要 
由 项 目 评审 小 组 对 科研 成 果 质量 进行 评议 ， 审 
核 通 过 后 将 科研 数据 上 传 至 共享 联盟 等 科研 数 
据 共享 平台 ， 进 行 数据 的 存档 和 分 享 ， 同 时 科 
研 项 目 团队 在 经 短暂 休整 后 着 手下 一 个 科研 项 
目的 开展 。 
2.2 科研 项 目 周期 中 高 校 科 研 数据 质量 问题 及 原因 
科研 数据 作为 高 校 科 研 项 目 周期 中 的 重要 
组 成 ,尽管 其 质量 控制 的 重要 性 不 断 被 学 者 强 
Dal, 但 在 高 校 科 研 项 目 实践 中 仍 存在 诸多 问题 。 
数据 错误 、 不 完整 、 不 一 致 、 不 及 时 是 高 校 科 
研 数 据 质量 的 主要 问题 ( 见 表 1 ) ， 其 原因 分 为 
以 下 几 种 : 中 科研 数据 来 源 复杂 且 类 型 多 样 ”。 
科研 项 目 团队 成 员 大 多 来 自 不 同学 科 ， 拥 有 不 
同学 科 背 景 ， 由 此 而 生 的 科研 数据 来 源 复杂 且 
未 能 有 统一 数据 规范 ， 数 据 孤 岛 现象 加 剧 ， 给 
数据 的 采集 和 整理 带 来 不 小 挑战 。 包 科研 数据 
规模 偏 小 。 高 校 科研 项 目 团队 产生 的 科研 数据 
规模 不 大 ， 但 项 目 团队 数量 众多 ， 使 得 项 目 团 
队 在 数据 发 现 中 很 难 检索 到 高 质量 数据 。@ 科 
研 数 据 质量 控制 意识 不 足 。 项 目 团队 成 员 的 数 
据 质量 管理 的 习惯 尚未 养 成 ， 在 科研 数据 搜集 
能 力 、 数 据 共享 意识 、 数 据 安全 意识 等 方面 还 
存在 一 定 从 缺 。 


表 1 科研 项 目 周期 中 


要 数据 质量 


问题 


主要 数据 质量 问题 


科研 项 目 周期 主要 数据 活动 


原始 数据 次 级 数据 
BEREKEN, ERNAI TRAORE; 
— ， 数据 记载 存在 遗漏 情况 ; 数据 采集 内 容 不 符 主题 或 错误 ; 
one 数据 采集 数据 采集 格式 不 正确 ; 8 素数 据 结果 不 全 面 、 不 完整 ; 
实验 数据 记录 与 实际 不 符 ; 数据 录入 错误 或 更 新 失败 ; 
科研 实施 。 数据 生产 、 发 现 数据 存储 格式 不 规范 ; 数据 存储 格式 不 规范 
实验 数据 因 更 新 不 及 时 而 呈现 数据 匈 余 ， TO N 
DREM MRNA sre A 
共享 数据 内 容 不 一 致 共享 数据 内 容 不 一 致 
成 果 发 表 。 。 数据 存档 、 分 享 数据 归档 错误 ; 数据 归档 错误 ， 
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综合 科研 项 目 周 期 中 数据 质量 问题 剖析 和 
原因 分 析 可 知 ， 要 将 无 序 、 信 息 混乱 的 科研 数 
据 序 化 整合 以 供 高 校 科 研 项 目 团队 重复 利用 ， 
就 必须 针对 存在 的 质量 问题 提出 一 套 基 于 准确 
性 、 完 整 性 、 一 致 性 和 及 时 性 的 可 靠 数据 质量 
评估 标准 , 构建 数据 质量 工程 的 实践 架构 体系 ， 
实现 科研 数据 的 创新 增值 、 科 人 研 项 目 管理 的 效 
率 提升 和 项 目 团队 质量 控制 意识 的 提高 。 

2.3 实施 高 校 科研 数据 质量 控制 的 意义 

结合 高 校 科研 数据 自身 特点 、 科 研 数 据 需 
求 及 科研 环境 等 多 方面 情况 ， 本 文 认为 在 高 校 
科研 项 目 周 期 中 实施 数据 质量 控制 的 意义 主要 
表现 在 以 下 几 个 方面 : 

C1) 促进 跨 学 科 科研 数据 的 组 织 与 融合 。 
由 于 科研 项 目 研究 的 需要 和 项 目 成 员 自 身 学 科 
背景 的 异 质 性 ， 科 人 研 数 据 普遍 具有 学 科 交 叉 和 
关联 的 特点 ， 这 一 特征 使 得 数据 管理 相关 标准 
难以 制定 或 缺乏 普 适 性 ， 造 成 科研 数据 利用 率 
低下 。 在 科研 项 目 周 期 中 实施 数据 质量 控制 有 
助 于 实施 数据 多 维度 组 织 ， 从 不 同 维度 对 科研 
项 目 周期 中 不 同 阶段 的 科研 数据 进行 组 织 与 分 
类 ， 提 高 科研 数据 利用 率 。 

(2) 满足 高 校 科研 项 目 团队 对 高 质量 数据 
的 需求 。 对 于 高 校 科研 项 目 团队 人 员 而 言 ， 有 
缺陷 的 、 不 完整 的 或 误导 性 的 数据 极 有 可 能 造 
成 科学 实验 的 失败 ， 造 成 科研 成 本 急剧 上 升 ， 
甚至 项 目 无 法 结 题 。 而 准确 、 完 整 的 科研 数据 
在 推动 科研 项 目 进 程 方面 可 起 到 事半功倍 的 效 
用 ,缓解 项 目 团队 的 科研 压力 ， 提 高 数据 的 研 
究 和 使 用 价值 。 

(3 ) 融入 第 四 科研 范式 环境 的 必然 要 求 。 
全 新 的 科研 范式 下 科研 数据 成 为 科学 研究 的 基 
础 性 资源 外 。 已 有 的 科研 数据 是 新 研究 的 宝贵 
资产 ， 对 已 有 数据 的 整合 、 挖 气 和 再 利用 为 学 
术 研 究 提供 了 一 种 新 的 资源 外 。 由 此 而 生 的 高 
密集 科研 大 数据 对 传统 的 科研 数据 管理 造成 了 
巨大 冲击 ， 因 此 在 科研 项 目 周 期 中 构建 高 校 科 
研 数据 质量 控制 架构 体系 、 提 高 科研 数据 质量 
是 融入 第 四 科研 范式 环境 的 必然 要 求 。 
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© 科研 项 目 周期 中 高 校 科 研 数据 质 
量 控制 架构 体系 


高 校 科研 数据 质量 控制 是 一 项 时 间 跨 度 长 、 
过 程 复杂 的 项 目 , 在 科研 项 目 周期 的 不 同 阶段 ， 
科研 数据 的 来 源 、 质 量 要 求 和 控制 方法 也 不 同 。 
本 研究 从 科研 项 目 周 期 和 质量 控制 阶段 两 个 角 
度 构建 高 校 科 研 数据 质量 控制 架构 体系 ， 如 图 2 
所 示 。 高 校 科研 项 目 周 期 中 的 相关 数据 活动 涉 
及 项 目 规划 者 、 数 据 采集 者 等 5 类 数据 质量 角色 ， 
他 们 在 促进 科研 项 目 顺利 开展 的 同时 ,从 评 佑 、 
认 知 和 行动 3 个 阶段 开展 数据 质量 控制 活动 ， 
根据 评估 阶段 产生 的 科研 数据 质量 评估 结果 确 
定数 据 质量 问题 产生 的 根本 原因 ， 并 从 认 知 、 
管理 流程 3 个 视角 制定 科研 数据 质量 提高 方案 ， 
从 而 形成 科研 数据 质量 控制 周期 ， 不 断 提高 科 
人 研 数据 质量 。 
3.1 高 校 科研 数据 质量 控制 过 程 中 相关 角色 

科研 项 目 周 期 中 主要 涉及 项 目 规划 者 、 
数据 采集 者 、 技 术 支 持 者 、 数 据 分 析 者 和 记 
录 管 理 人 员 这 5 类 角色 ,他们 与 科研 项 目 和 
质量 控制 周期 紧密 相连 ， 影响 着 科研 数据 的 
质量 和 价值 。 

(1) 项 目 规划 者 。 规 划 者 一 般 包括 科研 项 
目 中 的 项 目 主持 人 、 数 据 架 构 师 等 人 ， 主 要 在 
科研 构思 阶段 收集 科研 项 目 数据 需求 ， 拟 定 科 
研 项 目 数 据 管理 规划 ， 将 数据 质量 提高 融入 项 
目 设 计 和 体系 架构 中 ， 以 便 减 少 风 险 、 抓 住 机 
遇 和 合理 地 分 配 资源 。 

(2) 数据 采集 者 。 主 要 是 指 科研 项 目 团 
队 中 实施 科研 实验 或 搜集 数据 的 人 员 ， 他 们 
掌握 着 数据 的 最 初 来 源 ， 作 为 数据 质量 角色 
的 重要 组 成 部 分 承担 捕获 、 创 建 或 维护 数据 
的 职责 。 

(3) 技术 支持 者 。 主 要 指 项 目 团队 中 数据 
库 管理 员 、IT 支持 者 等 人 员 ， 开 发 科研 数据 存 
储 平台 ， 实 施 元 数据 管理 并 建立 数据 有 效 性 规 
则 ， 在 逻辑 上 形成 完整 的 资源 体系 ， 使 科研 数 
据 在 物理 存储 上 具有 整体 性 和 关联 性 、 在 空间 
上 具有 较 强 的 扩展 性 。 
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(4) 数据 分 析 者 。 知 识 工作 者 在 成 果 整 理 
阶段 运用 数据 挖掘 、 数 据 建 模 等 数据 分 析 技术 ， 
对 原始 科研 数据 进行 深入 分 析 ， 识别、 检测 并 
清洗 错误 、 无 效 等 低 质量 数据 ， 对 高 质量 的 数 
据 进 行 整理 、 分 析 ， 挖 掘 科研 数据 背后 事物 之 
间 的 潜在 联系 ， 得 出 理想 的 科研 成 果 。 

(5) 记录 管理 人 员 。 记 录 管 理 人 员 在 整个 
科研 项 目 周 期 和 质量 控制 周期 中 负责 采集 科研 
数据 与 规范 存档 记录 ， 并 明确 其 在 生命 周期 各 
阶段 的 状态 。 由 于 数据 通常 分 散在 项 目 团队 不 
同 成 员 手 中 ， 因 此 建立 科研 数据 在 每 个 周期 阶 
段 的 状态 、 操 作 、 环 境 信 息 等 完整 的 文档 记录 
更 为 重要 ， 以 便 减 少 科 研 数据 在 项 目 周期 中 的 
流失 ， 加 强 了 科研 数据 的 管理 与 控制 …。 

3.2 数据 质量 控制 周期 

数据 质量 控制 周期 通过 评 佑 、 溯 因 和 行动 
3 个 高 层 步 又， 为 讨论 和 着 手 思 考 “ 控 制 ” 提 供 
一 种 简单 的 方法 "。 在 评估 阶段 ， 需 要 评判 当 
前 科研 项 目 环 境 和 数据 ， 并 将 其 与 需求 和 预期 
相 比 较 ; 在 溯 因 阶段 ， 了 解数 据 和 信息 的 真实 
状态 、 对 科研 的 影响 和 根本 原因 是 重点 ; 前 两 
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项 目 周期 中 数据 质量 控制 架构 体系 


个 阶段 的 顺利 进行 为 行动 阶段 打下 坚实 基础 ， 
数据 质量 管理 人 员 在 这 一 阶段 除了 纠正 当前 科 
研 数据 错误 之 外 ， 还 需 预防 未 来 信息 和 科研 数 
据 质量 问题 。 评 估 是 溯 因 的 关键 ， 漳 因 将 引起 
行动 ,行动 又 由 定期 评估 来 核实 ， 由 此 ， 科 研 
数据 质量 控制 得 以 良性 循环 。 
3.2.1 评估 阶段 

评估 阶段 是 整个 质量 控制 周期 的 基础 ， 也 
是 高 校 科 研 项 目 周期 得 以 持续 的 前 提 。 在 这 一 
阶段 主要 包括 科研 数据 的 需求 和 环境 分 析 、 定 义 
数据 质量 维度 和 数据 质量 评估 3 个 方面 。 有 效 的 
规划 是 确保 任何 科研 项 目 成 功 实施 必 不 可 少 的 要 
素 ， 对 科研 数据 的 需求 和 环境 进行 全 面 分 析 将 使 
科研 项 目 实施 真正 做 到 有 的 放 矢 和 更 有 针对 性 ; 
根据 科研 项 目 周 期 中 的 数据 质量 问题 并 结合 以 往 
研究 ， 定 义 科研 数据 质量 维度 包括 正确 性 、 完 整 
性 、 一 致 性 和 及 时 性 4 个 维度 ， 统 一 规范 科研 项 
目 周期 中 数据 质量 控制 的 标准 和 测量 方法 ， 以 
便 后 续 数 据 质量 评估 的 顺利 开展 。 
3.2.2 WI Br Be 

找 出 科研 数据 质量 问题 的 根本 原因 并 有 针 
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对 性 地 制定 提高 方案 是 溯 因 阶段 的 重 中 之 重 。 
数据 管理 人 员 收 集 所 有 与 低 数据 质量 相关 的 硼 
景 信息 ，8 追 踪 和 回溯 科研 数据 在 科研 项 目 周期 
里 流通 的 路 径 并 进行 捕获 和 比较 ， 对 质量 问题 
进行 优先 级 分 类 ， 最 终 确 定数 据 质量 问题 的 根 
本 原因 。 若 根本 原因 引起 的 质量 问题 超出 了 预 
先 的 数据 质量 评估 维度 ， 则 需 返 回 评估 阶段 重 
新 对 数据 需求 和 环境 进行 分 析 ; 若 根 本 原因 在 
预计 质量 问题 范围 内 ， 需 要 确定 根本 原因 发 生 
的 阶段 ， 提 出 解决 根本 原因 的 具体 建议 ， 并 对 
若干 建议 划分 优先 等 级 ， 确 定 质量 提高 方案 。 
3.2.3 行动 阶段 

行动 阶段 的 目的 是 纠正 当前 科研 数据 错误 ， 
同时 采取 手段 预防 未 来 科研 数据 错误 。 由 溯 因 
阶段 输入 至 行动 阶段 的 质量 提高 方案 主要 包括 
质量 差距 模型 、 企 业 架 构 模 型 和 流程 分 析 3 种 
模式 。 从 认 知 视角 来 看 ， 引 入 质量 差距 模型 ， 
认 知 并 分 析 期 望 的 科研 数据 质量 和 实际 感知 的 
科研 数据 质量 之 间 的 差距 ， 对 于 正确 把 握 质量 
问题 产生 的 根本 原因 具有 关键 作用 ; 从 管理 视 
角 来 看 ， 随 着 跨 学 科 趋 势 的 增强 ， 高 校 科 研 项 
目 更 强调 跨 部 门 性 的 协同 合作 ， 在 企业 架构 的 
模型 上 实施 高 校 科 研 数 据 质量 控制 能 从 科研 团 
队 层面 为 数据 质量 控制 活动 提供 保障 ; 从 流程 
视角 来 看 ， 高 校 科研 数据 质量 水 平 还 与 项 目 周 
期 中 各 个 环节 息息相关 ， 因 此 本 研究 还 引入 流 
程 分 析 ， 从 微观 角度 有 计划 、 有 组 织 地 把 控 高 
校 科 研 数据 质量 。 这 3 个 视角 提出 的 科研 数据 
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总 模式 ， 如 图 3 所 示 。 该 模式 阐述 了 在 高 校 科 
研 数据 质量 控制 架构 体系 下 数据 质量 控制 的 具 
体 模式 及 流程 。 评 佑 阶段 和 漳 因 阶段 是 在 全 项 
目 周期 中 实时 监测 科研 活动 中 的 数据 质量 ， 依 
据 科 研 数据 质量 规则 及 维度 对 数据 质量 进行 评 
佑 后 ， 找 出 数据 质量 问题 并 根据 问题 的 性 质 、 
出 现 的 阶段 进行 分 类 编号 。 在 行动 阶段 ， 数 据 
管理 人 员 将 从 认 知 视角 出 发 ， 引 入 质量 差距 分 
析 模 型 ， 将 实际 的 数据 质量 与 项 目 团队 期 望 的 
数据 质量 进行 比较 ， 进 行 质量 差距 分 析 ， 从 而 
深入 测量 、 严 密 评 判 各 类 数据 质量 问题 并 找到 
根本 原因 ， 为 科研 团队 制定 数据 质量 控制 决策 
提供 关键 依据 ; 从 管理 视角 来 看 ， 数 据 管理 人 
员 根 据 基于 质量 差距 模型 的 科研 数据 质量 控制 
模式 排查 出 来 的 质量 问题 根本 原因 ， 将 数据 质 
量 控制 整合 为 企业 架构 的 固有 组 件 ， 从 宏观 上 
提出 解决 科研 项 目 中 跨 学 科 、 跨 部 门 的 数据 质 
量 控制 和 协同 监管 问题 的 方法 ， 为 科研 项 目 周 
期 中 的 高 校 科研 数据 质量 控制 活动 提供 理论 文 
撑 和 数据 治理 规范 ; 最 后 ， 数 据 管 理 人 员 从 流 
程 视角 上 对 整个 科研 项 目 周 期 进行 数据 质量 问 
题 监测 与 跟踪 ， 从 微观 层面 确保 问题 能 得 到 及 
时 有 效 的 处 置 ， 并 提高 项 目 流 程 管 理 效率 。 现 
对 各 视角 下 数据 质量 控制 模式 进行 剖析。 
41 基于 质量 差距 模型 的 高 校 科研 数据 质量 控制 
模式 

营销 学 家 A. Parasuraman Fil L. Berry 等 人 
提出 服务 质量 差距 模型 ， 通 过 对 顾客 感知 的 实 


质量 改进 流程 和 数据 纠正 方法 ， 为 科研 项 目 周 
期 中 高 校 科研 数据 质量 控制 提供 了 理论 思路 和 
实践 基础 。 


O 科研 项 目 周期 中 高 校 科 研 数据 质 
量 控制 模式 分 析 


为 确保 数据 管理 方 可 以 自始至终 控制 科研 
项 目 周期 中 的 科研 数据 质量 ， 在 产生 实质 影响 
前 尽 星 识别 、 排 序 和 修复 数据 缺陷 ， 本 文 基于 
高 校 科 研 数据 质量 控制 架构 体系 的 三 大 阶段 ， 
提出 了 科研 项 目 周 期 中 高 校 科 研 数据 质量 控制 


际 服务 质量 与 期 望 服务 质量 的 差距 比较 来 分 析 
存在 的 质量 问题 中，J. R. Evans 提出 “客户 驱 
动 质量 ”方法 ， 主 张 从 需求 的 角度 提升 数据 质 
量 上 。 在 高 校 科研 项 目 周 期 中 ， 对 科研 数据 管 
理 人 员 和 项 目 团队 进行 数据 质量 差距 分 析 是 发 
现 数据 质量 根本 原因 、 实 现 数据 质量 有 效 提 高 
的 关键 前 提 。 质 量 差 距 分 析 模 型 主要 是 通过 项 
目 团队 期 望 的 数据 质量 和 其 实际 感知 的 数据 质 
量 的 差距 ， 进 行 根本 原因 分 析 ， 从 而 精准 修复 
数据 质量 问题 , 实现 提高 科研 数据 质量 的 目的 ， 
具体 如 图 4 所 示 : 
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图 3 高 校 科研 项 目 周 期 数据 质量 控制 总 模式 
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影响 项 目 团队 成 员 期 望 的 数据 质量 因素 一 
般 包括 历史 数据 的 可 靠 性 、 科 研 机 构 的 宣传 力 
度 以 及 科研 数据 的 需求 程度 等 ， 这 些 因素 的 相 
互 作用 构成 了 科研 项 目 周期 中 项 目 团队 对 科研 
数据 质量 的 期 望 指 数 ; 而 项 目 团 队 实 际 感知 到 
的 数据 质量 的 形成 来 源 于 数据 采集 质量 的 可 靠 
性 、 数 据 质量 标准 制定 的 科学 性 、 对 科研 数据 
的 分 析 能 力 和 团队 成 员 的 数据 素养 。 数 据 质量 
控制 人 员 通 过 用 户 调查 法 、 问 卷 调 查 法 多 种 方 
式 了 解 这 两 者 之 间 的 差距 ， 并 根据 调查 结果 进 
行 质量 差距 分 析 。 质 量 差 距 分 析 内 容 由 数据 质 
量 期 望 差距 、 数 据 质量 标准 差距 、 数 据 质 量 传 
递 差距 、 沟 通 质量 差距 和 整体 感知 质量 差距 构 
成 ， 其 中 整体 感知 质量 差距 是 整个 模型 分 析 的 
关键 ,前 4 个 差距 的 大 小 直接 影响 着 科研 项 目 
团队 感知 的 科研 数据 质量 差距 的 大 小 ， 因 而 在 
进行 质量 控制 时 应 尽量 缩小 前 4 个 差距 。 数 据 
控制 人 员 通 过 质量 差距 分 析 列 出 来 的 差距 清单 ， 
进行 快速 配置 测试 或 查询 ， 记 录 下 可 能 需要 纠 
正 的 数据 集 ， 进 行 质量 根本 原因 分 析 。 识 别 错 
误 源 和 理解 错误 的 引入 是 根本 原因 分 析 的 重点 ， 
主要 通过 在 整个 科研 项 目 周期 中 重复 识别 数据 
“ 进 时 有 效 、 出 时 无 效 ” 的 处 理 阶 段 ， 精 准 定 
位 数据 活动 中 数据 错误 源 的 位 置 ， 在 此 基础 上 
更 进一步 分 析 数 据 质量 缺陷 造成 的 原因 ， 了 解 
引入 错误 的 方式 。 将 数据 质量 原因 按 优先 级 分 
类 , 有 助 于 将 业务 价值 与 高 质量 数据 关联 起 来 ， 
同时 还 能 发 现 少量 在 评估 阶段 玻 漏 的 质量 问题 ， 
促进 数据 质量 控制 体系 的 改进 。 若 问题 原因 在 
预计 范围 内 ， 则 需要 采取 数据 纠正 与 清理 、 根 
本 原因 消除 、 监 测 和 预防 等 修复 质量 方法 ， 以 
提高 科研 数据 质量 。 
4.2 基于 企业 架构 模型 的 高 校 科研 数据 质量 控制 
模式 

高 校 科 研 项 目 团队 成 员 大 多 来 自 于 不 同 院 
系 ， 学 科 背 景 的 异 质 性 使 得 科研 数据 内 容 综 合 
性 强 、 监 学 科 性 强 ， 数 据 难以 分 类 、 有 序 储存 ; 
同时 高 校 科 研 数据 质量 控制 需要 多 个 部 门 共同 
协作 ， 具 有 路 部 门 性 ， 因 此 从 管理 角度 来 说 还 
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需要 构建 一 套 适 应 高 校 科 研 数据 特征 的 数据 质量 
控制 模式 。 企 业 架 构 是 一 种 按照 一 定 系 统 设 计 原 
则 进行 组 织 的 理论 框架 ， 在 信息 资源 集成 ""、 
数据 治理 中 等 方面 得 到 广泛 应 用 ， 因 此 可 将 企 
业 架 构 模 型 引入 高 校 科 研 数 据 质量 控制 模式 。 
企业 架构 的 内 容 一 般 包 括 业 务 架构 、 应 用 架构 、 
数据 架构 和 技术 架构 4 层 "， 将 其 应 用 于 科研 
数据 质量 工程 实践 中 ， 有 具体 如 图 5 所 示 。 

技术 层 是 整个 企业 架构 模式 的 基础 ， 涉 及 
到 网 络 传输 基本 服务 、IT 基础 设施 设备 、 大 数 
据 处 理 技 术 和 智力 支持 等 要 素 。 其 中 网 络 传输 
和 IT 基础 设施 设备 为 支撑 整个 科研 数据 活动 和 
质量 控制 活动 提供 了 保障 ， 大 数据 处 理 技术 是 
数据 密集 型 科研 环境 下 获取 高 质量 数据 不 可 或 
缺 的 支撑 点 ， 为 数据 质量 控制 提供 强大 的 技术 
支持 ， 包 括 数据 关联 分 析 、 用 户 行为 智能 预测 、 
知识 图 谱 分 析 、 聚 类 分 析 等 ， 可 实现 对 原始 科 
研 数据 的 有 效 处 理 。 

数据 层 具体 可 分 为 数据 采集 、 数 据 质量 控 
制 和 数据 存储 3 个 方面 ， 该 层面 主要 是 为 科研 
项 目 提供 多 维 化 的 科研 数据 来 源 ， 并 运用 数据 
处 理工 具 和 技术 对 数据 进行 预 处 理 和 规范 化 存 
储 。 数 据 采集 方面 ， 几 是 能 满足 项 目 团队 科研 
需要 的 资源 都 成 为 数据 采集 的 对 象 ， 这 些 多 维 
化 数据 来 源 主要 包括 共享 联盟 资源 、 网 络 资源 
和 项 目 历史 资源 ,项 目 团 队 根 据 科 人 研 需 要 从 中 
提取 知识 ， 并 将 其 应 用 到 实际 科研 活动 之 中 。 
但 鉴于 数据 质量 的 良 劳 不 齐 ， 应 当 按 照 数据 质 
量 控制 周期 的 循环 步骤 对 采集 的 数据 进行 质量 
控制 ， 经 评估 后 确定 数据 质量 根本 原因 、 确 定 
质量 提高 方案 ， 从 而 预防 和 纠正 数据 错误 ， 完 
成 数据 预 处 理工 作 。 同 时 ， 还 应 设置 必要 的 数 
据 存 储 规 范 ， 对 数据 进行 统一 格式 化 后 再 存档 
至 科研 数据 存储 平台 。 

应 用 层 主要 是 根据 业务 层 和 数据 层 提供 的 
数据 质量 控制 方案 进一步 提高 数据 质量 ， 即 对 
科研 数据 进行 提取 、 整 合 和 深入 挖掘 。 其 中 数 
据 提取 是 指 对 科研 数据 进行 选择 和 清洗 ， 保 证 
原始 数据 的 准确 性 和 及 时 性 ; 数据 整合 是 指 对 
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数据 进行 过 滤 和 合并 ， 降 低 数据 的 元 余 性 ; 数 
据 挖 据 是 通过 挖掘 模式 和 算法 应 用 对 科研 数据 
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下 的 潜在 知识 内 容 进 行 挖掘 和 分 析 ， 最 终 得 到 
理想 的 科研 数据 成 果 。 
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业务 层 则 是 为 提高 科研 项 目 周期 中 的 数 
据 质量 而 形成 的 集成 视窗 ， 对 整个 项 目 中 的 
数据 活动 进行 实时 监测 和 维护 。 除 此 之 外 ， 
还 需 在 科研 构思 阶段 进行 需求 和 环境 分 析 ， 
如 收集 数据 需求 、 制 定数 据 规范 和 数据 管理 
规划 等 ， 同 时 制定 适用 于 整个 架构 的 科研 数 
据 标 准 ， 为 科研 数据 质量 的 评 佑 、 控 制 提 供 
有 效 且 统一 的 尺度 。 
4.3 基于 流程 分 析 的 高 校 数 据 质量 控制 模式 

科研 数据 质量 包括 过 程 数 据 质量 和 结果 
数据 质量 ， 结 果 质 量 的 好 坏 反映 在 科研 项 目 
过 程 的 各 个 环节 上 ， 只 有 改善 过 程 数据 质量 
才能 促使 结果 质量 的 提高 。 因 此 ， 需 要 对 科 
研 项 目 周期 中 的 高 校 科 研 数据 质量 控制 进行 


图 5 基于 企业 架构 模型 的 数据 质量 控制 模式 


流程 分 析 ， 从 微观 的 角度 有 计划 、 有 组 织 、 
持续 地 进行 质量 改进 ， 达 到 期 望 数据 质量 的 
要 求 ， 如 图 6 所 示 。 

在 科研 构思 阶段 ， 数 据 资 源 采集 、 需 求 环 
境 分 析 和 质量 评估 标准 的 确定 是 规划 者 和 记录 
管理 人 员 的 重点 工作 。 数 据 资源 的 采集 来 源 于 
科研 数据 共享 平台 ， 采 集 过 程 中 从 源头 上 保证 
数据 的 准确 性 与 完整 性 是 数据 质量 控制 的 重点 ; 
需求 环境 分 析 中 主要 是 了 解 项 目 团队 的 科研 数 
据 质 量 需 求 、 前 沿 性 分 析 等 ， 此 时 科研 数据 的 
准确 性 和 及 时 性 是 规划 者 的 主要 需求 ; 在 制定 
数据 质量 评 佑 标准时， 规划 者 和 记录 管理 人 员 
需要 充分 考虑 数据 质量 需求 ， 确 保 标准 的 可 靠 
性 和 科学 性 。 
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在 科研 实施 阶段 ， 生 产 考 通过 科研 活动 产 
生 原 始 实验 数据 ， 由 技术 支持 者 根据 数据 质量 
评 佑 结果， 运用 大 数据 处 理 技 术 进 行 数据 预 处 
理 ， 包 括 科研 数据 去 重 、 纠 正 错误 数据 、 统 一 
存储 格式 等 内 容 ， 得 到 符合 科研 数据 标准 规范 
的 结构 化 数据 。 这 一 阶段 中 严谨 科学 的 科研 活 
动 是 影响 后 续 数 据 质量 的 根本 要 素 ， 数 据 预 处 
理 的 正确 操作 是 提高 科研 数据 质量 的 基本 前 提 。 


图 6 基于 流程 分 析 的 数据 质量 控制 模式 


在 成 果 整 理 阶 段 ， 从 数据 发 现 上 升 到 知识 
发 现 、 从 数据 采集 到 数据 创造 是 这 一 阶段 的 主 
旋律 。 数 据 的 提取 、 整 合 和 挖掘 依赖 于 技术 文 
持 者 对 数据 处 理 技术 的 娴熟 掌控 和 知识 工作 者 
的 数据 素养 ， 两 者 的 协同 作用 才能 得 到 更 精准 
的 科研 实验 结果 ， 才 能 更 深入 地 揭示 事物 间 洪 
在 关联 和 规律 。 

在 成 果 发 表 阶 段 ， 知 识 工 作者 对 成 果 整 
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理 阶段 的 科研 数据 进行 知识 整合 与 挖掘， 得 
到 论文 报告 基本 詹 形 。 和 剔除 部 分 偏离 正常 值 
的 数据 ， 对 科研 成 果 进 行 适度 修改 调整 后 存 
入 科研 数据 存储 库 中 。 科 人 研 数据 存储 库 将 数 
据 结构 化 ， 保 证 关联 数据 的 一 致 性 ， 并 实时 
更 新 数据 ， 将 高 质量 的 科研 成 果 存 档 、 共 享 
至 科研 数据 共享 平台 。 


全 结论 


大 数据 时 代 下 ， 科 学 研究 第 四 范式 归根 结 
底 是 对 海量 数据 的 挖掘 与 控制 "“， 科 研 数据 的 
质量 控制 也 就 成 了 科研 人 员 根 据 科 研 数据 进行 
深入 研究 的 关键 所 在 。 本 研究 从 科研 项 目 周期 
内 涵 及 相关 数据 活动 阐述 了 引入 数据 质量 控制 
的 必要 性 ， 并 从 科研 项 目 周期 和 质量 控制 阶段 
两 个 角度 构建 高 校 科 研 数 据 质量 控制 架构 体系 ， 
在 深入 剖析 体系 中 各 部 分 的 功能 和 特点 基础 上 ， 
从 认 知 、 管 理 和 流程 三 大 视角 构建 了 各 有 侧重 
又 综合 协同 的 数据 质量 控制 模式 及 流程 ， 为 高 
校 科研 项 目 周 期 中 的 科研 数据 质量 控制 提供 了 
ME SCTE AVA GBA 
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Abstract: [Purpose/significance] This paper aims to provide an effective control approach and method 
for the data quality control in the scientific research project cycle of universities. [Method/process] It built a 
data quality and quality control architecture system around the scientific research project cycle and the data 
quality control cycle, and implemented data quality control from the perspectives of cognition, management, 
and process under this system, and introduced quality gap models and companies. Control methods such as 
architecture model and process analysis analyzed the data quality control mechanism in the scientific research 
project cycle of universities. [Result/conclusion] A scientific research data quality control architecture 
system and a data quality control model suitable for the scientific research project cycle were established, 
which provided theoretical support for the quality control of scientific research data in universities. 
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